玩转手机号码,让犯罪团伙无所遁形
一个1962年出生的成功企业家前辈跟我抱怨,他的手机号不知道被谁卖了,垃圾信息一大堆,还有年轻的小姑娘说交不起大学学费,求赞助,愿意“付出一切”来报答他之类的,不堪其扰。我问他为什么不换手机号,他说,他从17岁来上海打拼到现在,从来没有换过手机号,一是觉得麻烦,二是因为很多老熟人都知道他的手机号,换号码的话,生意往来实在不便。
的确如此,尤其在互联网如此发达的今天,手机号码几乎成了所有平台注册的必备要素,包括各种社交平台、购物平台和金融理财平台,甚至是银行和三方支付。所有大额支付和更改密码等操作,都离不开手机号来接收验证码作为身份验证。今天,我们就来聊一聊手机号码于反欺诈的应用。
众所周知,中国大陆有三大运营商:移动、联通和电信,市场份额占比约为7:2:1;有31个省级行政区域,其中22个省,4个直辖市和5个自治区。手机号为11位数字,其编码规则主要是考虑运营商和省市区域。
我们可将手机号分为3+4+4组合。这里的“3”叫做网络识别号,用于区分运营商;第一个“4”用于做地区编码;第二个“4”是个随机码,也叫用户码。
对于网络识别码,我们随意问度娘,搜索结果首页第一条就可以找到其对应关系:
中国电信号段
133、149、153、173、177、180、181、189、199;虚拟号段:1700、1701、1702;
中国联通号段
130、131、132、145、155、156、166、171、175、176、185、186;虚拟号段:1704、1707、1708、1709、171;上网卡专属号段:145
中国移动号段
134(0-8)、135、136、137、138、139、147、150、151、152、157、158、159、172、178、182、183、184、187、188、198;虚拟号段:1703、1705、1706;上网卡专属号段:147;
对于地区编码,民间大神有过整理,例如百度文库:
手机号码段归属地数据表_百度文库wenku.baidu.com
github上也有贡献:
zengzhan/qqzeng-ipgithub.com
对于用户码,看似是随机码,但事实上,一个发卡渠道的用户码是高度集中的。想想看你大学入学时领到的电话号码与班级同学的号码之间的关系,你或许就理解了(对于黄姐姐这种闲着蛋疼喜欢背手机号码的人来说,到大学后背班级同学的手机号,只需要背最后2位,最多背5位,毫无挑战有木有!)。
了解了手机号码的基础知识后,让我们来具体看一看黄姐姐在做反欺诈时,是如何玩转手机号码的。
首先,来看手机号的拆解。
一、手机号前3位:可用于统计运营商分布。前面说过,三大运营商的市场占比约为7:2:1,每个省市的侧重点不同,例如,电信在某些城市可能更为强势,在另一些城市则相对较弱。可以对每个城市的注册用户做一个统计,当采用无监督聚类出来的某一个群组的运营商比例严重偏离统计值时,则该群组可能存在较大风险。例如,在黄姐姐做的某虚假注册的场景下,一个中国移动的大省,某200+个用户的群组,电信比例竟高达91%,着实诡异。
二、手机号前4位:可用于比对iccid的解析手机号。这里先科普一下什么是iccid,iccid是sim卡的识别码,可以理解成手机号的身份证。iccid由20位字符组成,三大运营商的编码略有不同,分别是: 898600MFSSYYGXXXXXXP(移动),898601YYMHAAAXXXXXXP(联通),898603MYYHHHXXXXXXXX(电信)。拿移动来举例,M表示号段(手机号前3位),F是第4位,SS是省编号。拿到iccid后,我们便可以通过其解析出手机号前4位。这有什么用呢?想象一个场景:你跑到一个中介那里去请他帮忙申贷,中介说,用我的做单机帮你申吧,我这里工具软件装得比较全。这里假设做单机的手机号为1390开头,你的手机号为1391开头。那么,在注册的时候,填写的是你自己的手机号1391,但埋点获得的iccid则是1390手机号对应的值(sim卡)。通过对比注册手机号前4位和iccid解析出的手机号前4位,则可以发现,这并非用户自己手机操作,或者更准确地说,申请的手机里并没有插着用于申请的手机号码的sim卡(这不是绕口令,没看懂的再读一遍!)。那么,背后的原因,可能会是冒用身份啊,中介代办啊等等。
三、手机号前7位:可用于对地区聚类和比对。在基础知识部分我们讲过,手机号中间4位是地区编码,那么,对地区做聚类,则可以转变为对手机号前7位做聚类。相比于前者,后者的聚类效果更强。为何这么说呢?因为用前7位聚类,其聚集性更有说服力。举个🌰,130号段,江苏南京一共有7个:1300025,1300026,1300028-1300032。如果我们说,这群人是一个团伙,因为“一二三个原因以及他们都在江苏南京”可能没那么让人信服。但对于手机号前7位聚类出来的结果,我们可以说,这群人是一个团伙,因为“一二三个原因以及他们都在江苏南京,并且手机号前7位还相同”,是不是相比来讲更有意思些?如果这群人来找你理论,说:“胡说,我们互不相识”。好,那么请问,南京那么多号段,为何你们都选择了130?就算130是你们的幸运数字,130号段有7个,你们怎么就那么巧都用1300032?再加上其他的一二三个原因,犯罪团伙可能就被你挖掘出来了。至于地区的对比,正常用户中,手机号归属地、身份证所在地、IP解析出的地区、GPS解析出的地区、常住地址、卡寄地址等至少有两个是一致的,如果都不一致,则风险较大。至于对每种地区如何做排列组合,大家且自己去发挥想象力吧!事实上,手机号前7位还有一个升级版玩法,就是识别伪造iccid。在黄姐姐的文章《无人行征信,无芝麻分,无学历,三方数据污染严重,可如何是好?》中介绍过一种伪造iccid的方法,其iccid可以任意输入被更改掉。但如果我们发现,其iccid的SS省编码与手机号中间4位地址编码城市不符,则可判断要么不是一张sim卡,要么iccid被篡改了。
四、手机号前9位:可用于对发卡渠道做聚类。在基础知识部分,黄姐姐讲到过,一个发卡渠道,手机号的用户码也会有一定的集中性。知道了发卡渠道集中,有什么用呢?这一点,主要用于识别批量养卡用户。做风控的人都知道,在信贷审核里,我们有一个指标,是看手机号的实名认证时间,通常如果一个号码的实名认证小于半年,被驳回的可能性比较高,因为这表示你可能不是一个特别稳定的用户,或者说,这个手机号背后的社会关系不是特别稳定(这也是文章开头故事中,老前辈不愿意换手机号的原因吧)。那么,为了达到这个指标,骗贷团伙要么去批量购买实名超过半年的手机号,要么去批量养一批sim卡。而这个养卡的源头,便是去发卡渠道购买并实名认证。所以,从发卡渠道上做聚类,也是一个比较有效的手段。在黄姐姐一个刚刚结束的项目中,发现了一个龙岩的480人的大型骗贷团伙,其所申贷的手机号就具有这类特征,甚至是连号手机号。想必有些人知道,龙岩的电信诈骗比较猖獗,屡禁不止。这些电信诈骗用过的手机号,再进行二次利用来骗贷,可谓是对“物尽其用”这四个字的最好诠释了!类似的案例可参考黄姐姐搜狐文章的第三个案例:
运营商数据——亟待开发的处女地www.sohu.com
其次,来看手机号的关联。
手机号通常会存在于几个地方:短信列表、通讯录、通话详单、紧急联系人的联系方式。特别提出:对于短信列表,为了方便分析,我们暂时将106开头的系统短信号码也认为是手机号码。通过手机号码,我们可以绘制一个大型的关联图谱来分析各个用户之间的关联关系(工具很多,不一一介绍了)。这里,黄姐姐简单罗列几个可以关注的点:
1. 多人互为或共用紧急联系人(联系方式);
2. 紧急联系人姓名不同,但联系方式相同(这一点很好玩,黄姐姐甚至见过把10086备注为“爸爸”,在从通讯录导入紧急联系人的时候,把这位“爸爸”导进来了,黄姐姐也真是佩服这几位用户的脑洞);
3. 挖掘坏人周边;这是指,通过关联谱图绘制出来的社群中,假设有1个或者几个人出现坏账,则其他人出现坏账的几率则更大。具体可参考黄姐姐之前的文章:《反欺诈之血缘关系分析和犯罪传导监测》
4. 通过历史90+标签,把短信列表的手机号做风险排序。方式如下:对每一个90+用户的短信列表号码做去重处理,再去掉10086,95555等官方号码。其余号码,每在一个90+用户中出现,就做+1分处理,最后根据得分做一个排序。这里,名列前茅的通常是一些106开头的系统短信,调查下来,发现其中不乏多头借贷的验证码短信。这一发现很有趣,原来,除了去购买三方多头数据以及看用户手机安装app list外,还有这种查看多头的方式。另外,你还会发现坏人们都在玩什么平台,玩哪些产品的人风险更高(赌博?网游?)。类似的处理方式,大家还可以应用于通讯录,通话详单和用户机装app list,可链接wifi list,bssid等等。这种方式得到的风险指数,无论用于评分卡还是用于做聚类(需要自定义阈值),效果都不错。
5. 虚拟号和上网号:虚拟号因为其优惠的套餐和选择性更多的尾号,被很多人选择和喜爱。但也被广告推销和犯罪份子所利用。目前来看,采用虚拟号段注册平台的用户,其风险指数比传统号段的要高。此外,更有甚者,直接用145、147等上网卡号段做注册,合着能收验证码就行是吧?但有些风控较弱的公司,还偏偏就没有对此做限制,被人钻了空子。某保险公司的一款财险app就没有对此做限定,因此年初的一个营销活动被大量欺诈份子薅羊毛,黄姐姐抓到这群人的时候,真是哭笑不得。。。
来源|知乎
作者|黄姐姐HJJ
更多精彩,戳这里: